智能论文笔记

Cementron: Machine Learning the Constituent Phases in Cement Clinker from Optical Images

Mohd Zaki , Siddhant Sharma , Sunil Kumar Gurjar , Raju Goyal , Jayadeva , N. M. Anoop Krishnan

分类：计算机视觉

2022-11-06

Cement is the most used construction material. The performance of cement hydrate depends on the constituent phases, viz. alite, belite, aluminate, and ferrites present in the cement clinker, both qualitatively and quantitatively. Traditionally, clinker phases are analyzed from optical images relying on a domain expert and simple image processing techniques. However, the non-uniformity of the images, variations in the geometry and size of the phases, and variabilities in the experimental approaches and imaging methods make it challenging to obtain the phases. Here, we present a machine learning (ML) approach to detect clinker microstructure phases automatically. To this extent, we create the first annotated dataset of cement clinker by segmenting alite and belite particles. Further, we use supervised ML methods to train models for identifying alite and belite regions. Specifically, we finetune the image detection and segmentation model Detectron-2 on the cement microstructure to develop a model for detecting the cement phases, namely, Cementron. We demonstrate that Cementron, trained only on literature data, works remarkably well on new images obtained from our experiments, demonstrating its generalizability. We make Cementron available for public use.

translated by 谷歌翻译

DiSCoMaT: Distantly Supervised Composition Extraction from Tables in Material Science Articles

Tanishq Gupta , Mohd Zaki , N. M. Anoop Krishnan , Mausam

分类：自然语言处理

2022-07-03

KB为科学领域的策划中的关键组成部分是从域已发表的文章中的表中提取信息 - 表具有重要的信息（通常是数字），必须充分提取该信息，以便对文章进行全面的机器理解。现有表提取器假设表结构和格式的先验知识，这在科学表中可能不知道。我们研究了一个具体而具有挑战性的表提取问题：提取材料的组成（例如玻璃，合金）。我们首先观察到材料科学研究人员在各种桌子样式中组织了类似的组成，需要一个智能模型来理解和构图提取。因此，我们将这项新颖的任务定义为ML社区的挑战，并创建一个培训数据集，其中包括4,408个远距离监督的表格，以及1,475个手动注释的DEV和测试表。我们还提出了Discomat，这是针对此特定任务的强大基线，该基线将多个图形神经网络与多个特定于任务的正则表达式，功能和约束结合在一起。我们表明，通过大幅度的边缘，盘点优于最新的表处理架构。

translated by 谷歌翻译

Progress and Challenges for the Application of Machine Learning for Neglected Tropical Diseases

Chung Yuen Khew , Rahmad Akbar , Norfarhan Mohd. Assaad

分类：机器学习

2022-12-02

Neglected tropical diseases (NTDs) continue to affect the livelihood of individuals in countries in the Southeast Asia and Western Pacific region. These diseases have been long existing and have caused devastating health problems and economic decline to people in low- and middle-income (developing) countries. An estimated 1.7 billion of the world's population suffer one or more NTDs annually, this puts approximately one in five individuals at risk for NTDs. In addition to health and social impact, NTDs inflict significant financial burden to patients, close relatives, and are responsible for billions of dollars lost in revenue from reduced labor productivity in developing countries alone. There is an urgent need to better improve the control and eradication or elimination efforts towards NTDs. This can be achieved by utilizing machine learning tools to better the surveillance, prediction and detection program, and combat NTDs through the discovery of new therapeutics against these pathogens. This review surveys the current application of machine learning tools for NTDs and the challenges to elevate the state-of-the-art of NTDs surveillance, management, and treatment.

translated by 谷歌翻译

Domain-aware Self-supervised Pre-training for Label-Efficient Meme Analysis

Shivam Sharma , Mohd Khizir Siddiqui , Md. Shad Akhtar , Tanmoy Chakraborty

分类：自然语言处理 | 人工智能

2022-09-29

现有的自我监督学习策略被限制在有限的目标或主要针对单峰应用程序的通用下游任务。对于复杂性和域亲和力（例如模因分析）而言，这对命令性的多模式应用有了孤立的进展。在这里，我们介绍了两种自我监督的预训练方法，即ext-pie-net和mm-simclr（i）在预训练期间使用现成的多模式仇恨语音数据，并且（ii）执行自我 - 通过合并多个专业借口任务，有效地迎合模因分析所需的复杂多模式表示学习，从而有效地迎合了学习。我们实验不同的自我实验策略，包括可以帮助学习丰富的跨模式表示并使用流行的线性探测来评估可恨模因任务的潜在变体。拟议的解决方案通过标签有效的培训与完全监督的基线竞争，同时在梅诺特挑战的所有三个任务上明显优于他们，分别为0.18％，23.64％和0.93％的绩效增长。此外，我们通过在Harmeme任务上报告竞争性能来证明所提出的解决方案的普遍性。最后，我们通过分析特定于任务的学习，使用更少的标记培训样本来建立学习表现的质量，并争辩说，自主策略和手头下游任务的复杂性是相关的。我们的努力强调了更好的多模式自学方法的要求，涉及有效的微调和可推广性能的专业借口任务。

translated by 谷歌翻译

Associative Learning for Network Embedding

Yuchen Liang , Dmitry Krotov , Mohammed J. Zaki

分类：机器学习 | 神经与进化计算

2022-08-30

网络嵌入任务是将网络中的节点表示为低维矢量，同时结合了拓扑和结构信息。大多数现有方法通过直接或隐式分配接近性矩阵来解决此问题。在这项工作中，我们从新的角度介绍了一种网络嵌入方法，该方法利用现代Hopfield网络（MHN）进行关联学习。我们的网络学习每个节点的内容与该节点的邻居之间的关联。这些关联是MHN中的回忆。鉴于该节点的邻居，网络的复发动力学使得可以恢复蒙版节点。我们提出的方法对不同的下游任务进行评估，例如节点分类和链接预测。与常见的矩阵分解技术和基于深度学习的方法相比，结果表明竞争性能。

translated by 谷歌翻译

Blind-Spot Collision Detection System for Commercial Vehicles Using Multi Deep CNN Architecture

Muhammad Muzammel , Mohd Zuki Yusoff , Mohamad Naufal Mohamad Saad , Faryal Sheikh , Muhammad Ahsan Awais

分类：计算机视觉

2022-08-17

与汽车和其他公路车辆相比，公共汽车和重型车辆由于其尺寸较大而具有更多的盲点。因此，这些重型车辆造成的事故更具致命性，并给其他道路使用者造成严重伤害。这些可能的盲点碰撞可以使用基于视觉的对象检测方法来尽早确定。然而，现有的基于最新视觉的对象检测模型在很大程度上依赖于单个功能描述符来做出决策。在这项研究中，提出了基于高级功能描述符的两个卷积神经网络（CNN）的设计，并提出了它们与更快的R-CNN的集成，以检测重型车辆的盲点碰撞。此外，提出了一种融合方法，以整合两个预训练的网络（即Resnet 50和Resnet 101），用于提取高水平的特征以进行盲点车辆检测。功能的融合显着提高了更快的R-CNN的性能，并优于现有的最新方法。两种方法均在公共汽车的自我录制的盲点车辆检测数据集和用于车辆检测的在线LISA数据集上进行了验证。对于两种提出的方法，对于自记录的数据集，可获得3.05％和3.49％的虚假检测率（FDR），使这些方法适用于实时应用。

translated by 谷歌翻译

Efficient Model Finetuning for Text Classification via Data Filtering

Xu Ouyang , Shahina Mohd Azam Ansari , Felix Xiaozhu Lin , Yangfeng Ji

分类：自然语言处理

2022-07-28

由于模型列出是现代NLP的核心，因此我们着手提高其效率。通过训练示例的动机通常是多余的，我们设计了一种以流媒体方式过滤示例的算法。我们的关键技术是两个：（1）自动确定跳过向后传播的训练损失阈值；（2）维护一个元预测指标，以进一步跳过正向传播。在各种基准测试的基准上，我们的算法将所需的训练示例降低了5 $ \ times $，而平均仅看到轻微的降级，因此将其化为三阶段的过程。我们的方法即使在一个训练时期也很少有效，每个训练示例一次遇到一次。它易于实现，并且与现有的模型列出优化（例如层冻结）兼容。

translated by 谷歌翻译

Actor-Critic based Improper Reinforcement Learning

Mohammadi Zaki , Avinash Mohan , Aditya Gopalan , Shie Mannor

分类：机器学习 | 人工智能

2022-07-19

我们考虑一个不当的强化学习设置，在该设置中，为学习者提供了$ M $的基本控制器，以进行未知的马尔可夫决策过程，并希望最佳地结合它们，以生产一个可能胜过每个基本基础的控制器。这对于在不匹配或模拟环境中学习的跨控制器进行调整可能很有用，可以为给定的目标环境获得良好的控制器，而试验相对较少。在此方面，我们提出了两种算法：（1）一种基于政策梯度的方法；（2）可以根据可用信息在基于简单的参与者（AC）方案和天然参与者（NAC）方案之间切换的算法。两种算法都在给定控制器的一类不当混合物上运行。对于第一种情况，我们得出融合率保证，假设访问梯度甲骨文。对于基于AC的方法，我们提供了基本AC案例中的固定点的收敛速率保证，并在NAC情况下为全球最优值提供了保证。（i）稳定卡特柱的标准控制理论基准的数值结果；（ii）一个受约束的排队任务表明，即使可以使用的基本策略不稳定，我们的不当政策优化算法也可以稳定系统。

translated by 谷歌翻译

Towards Neural Numeric-To-Text Generation From Temporal Personal Health Data

Jonathan Harris , Mohammed J. Zaki

分类：自然语言处理

2022-07-11

随着人们对旨在跟踪用户数据（例如，营养摄入量，步骤计数）的个人健康技术的生产兴趣，现在有比以往任何时候都更多的机会以自然语言形式向日常用户表达有意义的行为见解。这些知识可以提高他们的行为意识，并允许他们采取行动以实现其健康目标。它还可以弥合大量个人健康数据收集的鸿沟和描述个人行为趋势所需的摘要生成。先前的工作重点是基于规则的时间序列数据摘要方法，旨在生成在时间个人健康数据中发现的有趣模式的自然语言摘要。我们检查了经常性，卷积和基于变压器的编码器模型，以自动从数字时间个人健康数据中生成自然语言摘要。我们展示了我们的模型对记录在MyFitnessPal中的实际用户健康数据的有效性，并表明我们可以自动生成高质量的自然语言摘要。我们的工作是朝着雄心勃勃的目标迈出的第一步，即从个人健康数据中自动产生新颖而有意义的时间摘要。

translated by 谷歌翻译

Mitigating shortage of labeled data using clustering-based active learning with diversity exploration

Xuyang Yan , Shabnam Nazmi , Biniam Gebru , Mohd Anwar , Abdollah Homaifar , Mrinmoy Sarkar , Kishor Datta Gupta

分类：机器学习 | 人工智能

2022-07-06

在本文中，我们提出了一个新的基于聚类的主动学习框架，即使用基于聚类的采样（ALCS）的主动学习，以解决标记数据的短缺。ALCS采用基于密度的聚类方法来探索数据集群结构，而无需详尽的参数调整。引入了基于双簇边界的样本查询过程，以提高对高度重叠类分类的学习绩效。此外，我们制定了一种有效的多样性探索策略，以解决查询样品之间的冗余。我们的实验结果证明了ALCS方法的疗效。

translated by 谷歌翻译